4.2 Summarize og boxplot - statistikk for metriske variabler
Kommandoene summarize
og boxplot
brukes til å vise oppsummerende
statistikk for metriske/kontinuerlige variabler. I likhet med andre
statistikker i microdata.no, kan en lage statistikk også for
delpopulasjoner via IF-betingelser (man trenger ikke justere på datasettet i forkant).
Nedenfor vises eksempler for variablene inntekt og formue målt i hhv. 2019 og 2018, der populasjonen er alle bosatte i alderen 16-66 år.
Kommandoen summarize
viser nøkkelstatistikk for de spesifiserte
numeriske variablene:
-
Gjennomsnitt
-
Standardavvik
-
Antall enheter med gyldig verdi
-
Første prosentilverdi (øvre grenseverdi)
-
Indre kvartilverdier (50% = medianverdi)
-
Siste prosentilverdi (nedre grenseverdi)
Det er også mulig å vise ginikoeffisient-verdier samt
interkvartilverdier (avstanden mellom 75. og 25. prosentil) ved å bruke
hhv. opsjonene gini
og iqr
.
Kommandoen boxplot
viser en grafisk fremstilling gjennom et standard
boxplot med boks for de to midterste kvartilene, gjennomsnitt samt
minimums- og maksimumsverdi.
Om en holder musepekeren over de ulike områdene i boxplot-figuren, vil en kunne se hvilke verdier de ulike punktene representerer.
Kommandoen boxplot
gir mulighet til å vise separate tall for gitte
kategorier representert ved en annen kategorisk variabel:
boxplot variabel1, over(variabel2)
Eksempel på boxplot for inntekt per 2000-01-01 fordelt på kjønn:
Verdiene for gjennomsnitt, standardavvik og gini påvirkes av at statistikkpopulasjonen winsoriseres før utregningen av tallene. Winsorisering vil si at man koder om ekstremverdier og setter dem til grenseverdien for hhv. første og siste percentil, jfr. verdiene for 1% og 99% i summarize-resultatet. Dette påvirker gjennomsnitt, standardavvik og gini slik at beregnet verdi blir noe lavere enn faktisk verdi. Dette kommer an på hvor skjev fordelingen for de respektive variabelpopulasjonene er. Ved normalfordeling vil ikke winsorisering gi noe særlig utslag.
Prosentil-, kvartil- og medianverdier påvirkes ikke av winsorisering, men vises med tresifret nøyaktighet.
Grafiske visninger av numeriske utregniner gjennom kommandoer som boxplot
, barchart
, histogram
og hexbin
påvirkes også av de nevnte personverntiltakene.
Regresjonsanalyser returnerer hovedsaklig estimater og i liten grad personidentifiserende opplysninger. Derfor er ikke disse gjenstand for tiltakene nevnt over. Du finner beskrivelser av tilgjengelige regresjonsanalyser i kapittel 5.
Mer info om winsorisering og øvrige personverntiltak finner du her
For mer informasjon om disse kommandoene, bruk kommandoene help summarize
eller help boxplot
. Dette vil vise syntaxeksempler og en fullstendig liste over tilgjengelige opsjoner som kan brukes til å tilpasse utseende til statistikken som genereres. F.eks. kan opsjonen gini
brukes til å vise gini-koeffisientverdier i tillegg til standard summarize
-resultat.